SCRAPING HALAMAN WEBSITE

Tutorial Pembelajaran Scraping Halaman Website

Software R

Tutorial melakukan scraping web di jurnal internasional (Jurnal Logforum, terindeks Scopus). Software yang digunakan adalah R. Alur pengerjaan:

1. Mendownload seluruh halaman web dari artikel jurnal, di jurnal Logforum.

2. Dalam tutorial ini, jumlah halaman web artikel jurnal yang didownload sebanyak 672 halaman web, terdiri dari volume 1 sampai volume 21.

3. Mengambil Keywords, Judul Artikel, Author, Volume, Issue, Tahun, Abstrak dari 672 artikel jurnal

4. Melakukan PEMETAAN KEYWORDS, untuk melihat PEMETAAN RISET berdasarkan KEYWORDS

Link Data: https://docs.google.com/spreadsheets/d/17GNMBqzx5Td7CxfXpylKbSwjgS-3Rw6D/edit?usp=sharing&ouid=108349982515703654705&rtpof=true&sd=true

Link Scimago: https://www.scimagojr.com/journalsearch.php?q=21100913325&tip=sid

Link Jurnal Logforum: https://www.logforum.net/

Software: R
Link Youtube
Link Bahan

Dalam video kali ini, saya mau mempraktekan scraping halaman web TIKTOK, dengan alamat: https://www.tiktok.com/@duniapunyacerita_/video/7563130289002745095, pada berita "Purbaya Sadewa Sidak Pajak dan Temukan Pegawai Olahraga | TikTok".

Kita menggunakan software R, dengan paket R rvest. Yang mau saya scraping adalah: 1. Nama Akun, 2. Komentar, 3. Jumlah Like dan 4. Waktu Komentar. Berikut hasil scraping yang saya peroleh.

https://docs.google.com/spreadsheets/d/1s5mLtTNR3uMrx9vu2sQfeAiSOtjWRfc5/edit?usp=sharing&ouid=108349982515703654705&rtpof=true&sd=true

Software: R
Link Youtube
Link Bahan

Tutorial Scraping Halaman Web Sinta (Science and Technology Index). Contoh untuk Praktek, Menarik Data 2069 Author di Univ. Sumatera Utara, Mencakup: Nama Author, ID Sinta, Program studi, H-Indeks Google Scholar, H-Indeks Scopus, SINTA Score 3Yr, SINTA Score, Affil Score 3Yr dan Affil Score. Sumber Link SINTA: https://sinta.kemdiktisaintek.go.id/affiliations/profile/441.

Berikut data yang telah di-scraping:

https://docs.google.com/spreadsheets/d/1OKGgFYdAND2Z5S71LmWrIpteEO6AOy8h/edit?usp=sharing&ouid=108349982515703654705&rtpof=true&sd=true .

Software: R
Link Youtube
Link Bahan

Assalamualaikum teman-teman . . .

Dalam video ini, saya mau mempraktekan cara scraping data di web GOOGLE PLAY: TOKOPEDIA, menggunakan software R

Ini contoh hasil scraping yang saya lakukan:

https://docs.google.com/spreadsheets/d/1pz-9RN10hDHi8HbiYUIUqSW-dtxwDCC4/edit?usp=sharing&ouid=110804996580753826312&rtpof=true&sd=true

Untuk melakukan scraping web, saya menggunakan paket R, Namanya rvest

Data yang saya scraping: nama akun, komentar, skor rating, dan Waktu komentar

Software: R
Link Youtube
Link Bahan

Dalam video kali ini, saya mau mempraktekan, scraping halaman web youtube, dengan alamat: https://www.youtube.com/watch?v=K7AIv3J-78g. Kita menggunakan software R, dengan paket R rvest. Yang mau saya scraping adalah: 1. Nama Akun, 2. Komentar, 3. Jumlah Like, 4. Waktu Komentar. Berikut hasil scraping yang saya peroleh. Link Data Hasil Scraping: https://docs.google.com/spreadsheets/d/1jH6-6P3hPq0HNPki7TNVAbJ32vAB7Pca/edit?usp=sharing&ouid=108349982515703654705&rtpof=true&sd=true.

Software: R
Link Youtube
Link Bahan

1. Saya akan mencoba menarik data percakapan di media sosial Instagram, di akun:

ppatk_indonesia

dan 4 akun portal berita dengan jumlah follower LEBIH DARI 1 JUTA, yakni:

metrotv tempodotco tvonenews cnnindonesia dari 5 akun IG tersebut, saya mau menarik percakapan dari 13 POSTINGAN.

dengan postingan di Instagram sebagai berikut.

Nah ternyata saya berhasil menarik data percakapan netizen sekitar 9000 an percakapan dan saya peroleh juga akun nya.

2. Jadi untuk proses awalnya, download file html dari 13 postingan tersebut. Di sini kita akan melakukan scraping secara offline dari 13 file html tersebut.

3. saya melakukan scraping dengan menggunakan software R, di RStudio, menggunakan paket R rvest

4. berikut kode R yang saya rancang, untuk menarik data percakapan dan akun di medsos Instagram. Sebelum melakukan scraping di halaman website, ada beberapa hal yang saya perhatikan:

a. Pertama, saya akan MENG-ELIMINASI percakapan yang hanya berupa gambar. Jadi akun dan percakapan tersebut tidak saya masukkan ke dalam data

b. Kedua ada akun, yang mengomentari, namun hanya berupa "" (KOSONG). Nah ini juga tidak saya masukkan ke dalam data.

5. Selain itu, saya mencoba mencari tau, dari 5 postingan tersebut, AKUN YANG PALING BANYAK BERKOMENTAR

6. Hasil dari scraping AKAN TERSAJI KE DALAM EXCEL

Software: R
Link Youtube
Link Bahan

Dalam video ini:

1. Saya akan mencoba menarik data percakapan di media sosial Instagram, yakni terdiri dari 5 postingan di akun ppatk_indonesia. Jumlah percakapan yang akan coba kita Tarik sekitar di atas 2000 percakapan . . . .

2. data yang akan saya Tarik berupa data percakapan netizen, beserta akun-nya.

3. download file html dari 5 postingan tersebut. Di sini kita akan melakukan scraping secara offline dari 5 file html tersebut.

4. saya melakukan scraping dengan menggunakan software R, di RStudio, menggunakan paket R rvest

5. berikut kode R yang saya rancang, untuk menarik data percakapan dan akun di medsos Instagram. Sebelum melakukan scraping di halaman website, ada beberapa hal yang saya perhatikan:

a. Pertama, saya akan MENG-ELIMINASI percakapan yang hanya berupa gambar. Jadi akun dan percakapan tersebut tidak saya masukkan ke dalam data

b. Kedua ada akun, yang mengomentari, namun hanya berupa "" (KOSONG). Nah ini juga tidak saya masukkan ke dalam data.

6. Selain itu, saya mencoba mencari tau, dari 5 postingan tersebut, AKUN YANG PALING BANYAK BERKOMENTAR

7. Hasil dari scraping AKAN TERSAJI KE DALAM EXCEL

Software: R
Link Youtube
Link Bahan

Software Python